Une méthode d'évaluation de la pertinence des pages Web dans WebSum

نویسنده

  • Olfa Jenhani El Jed
چکیده

Ce travail s’inscrit dans le cadre du projet de recherche WebSum qui est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses retournées par un moteur de recherche suite à une requête utilisateur. Afin de produire le résumé, WebSum procède par le classement des réponses récupérées depuis un moteur de recherche (Google) par ordre de pertinence à l’aide d’une métrique qui fait l’objet de ce présent article. Pour la définition de notre métrique et de ces différents paramètres, nous nous sommes basés sur un corpus de 300 pages Web collectées à partir de réponses d’un moteur de recherche (Google) à différentes requêtes (20 requêtes) représentant des recherches simples sur le Web autour de domaines grand public (médecine, société et éducation). Ce corpus est réparti en trois échantillons de 100 pages chacun. Un échantillon contenant des pages pertinentes, un deuxième contenant des pages de qualité moyenne et le troisième de pages non pertinentes. L’étude analytique de ce corpus nous a permis de définir notre métrique qui est donnée par l’équation (1) et détaillée dans ce qui suit. Rdoc = Cf x (α . Cstat + β. Csynt) (1) Cette métrique se base sur différents critères permettant de juger la pertinence d’une page qui viennent compléter ceux habituellement utilisés par la plupart des moteurs de recherche (popularité, proximité des termes de la requête, etc.). Nous avons identifié trois critères complémentaires pour l’identification d’une page pertinente: 1) Cf critère de forme de la page. C’est un critère booléen qui vérifie si la page contient (=1) ou non (=0) du texte exploitable, 2) Cstat critère statistique. Il désigne la fréquence d’occurrence des termes de la recherche dans la page et 3) Csynt critère morpho-syntaxique. Il vérifie la bonne forme linguistique de la page en privilégiant l’utilisation des pronoms de la troisième personne et du temps présent. A travers plusieurs expérimentations, nous avons constaté que les valeurs de α et β doivent être fixer à 0.5 afin de donner la même importance pour l’évaluation de la page aux deux critères Cstat et Csynt. Autrement dit, une page peut avoir une fréquence d’occurrence des termes de la requête élevée mais une mauvaise forme linguistique (forum de discussion, etc.) et vice versa (page traitant un document autre que celui de la recherche).

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Méthodologie d'Évaluation Intelligente des Concepts Ontologiques

Résumé. Un des problèmes majeurs dans la gestion des ontologies est son évaluation. Cet article traite l’évaluation des concepts ontologiques qui sont extraits de pages Web. Pour cela, nous avons proposé une méthodologie d’évaluation des concepts basée trois critères révélateurs : « le degré de crédibilité »; « le degré de cohésion » et « le degré d’éligibilité ». Chaque critère correspond à un...

متن کامل

Un critère d'évaluation pour la sélection de variables

Résumé. Cet article aborde le problème de la sélection de variables dans le cadre de la classification supervisée. Les méthodes de sélection reposent sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous présentons un nouveau critère d’évaluation fondé sur une mesure d’ambigüıté. Cette mesure est fondée sur une comb...

متن کامل

Apprentissage statistique pour la constitution des corpus d'évaluation

RÉSUMÉ. La constitution de corpus d’évaluation est une étape essentielle pour évaluer la performance des systèmes de recherche d’information. Le coût de développement de tels corpus est en général assez élevé à cause en particulier de l’effort humain nécessaire à l’évaluation de la pertinence des documents pour chaque requête. Cette difficulté devient un véritable goulot d’étranglement dans le ...

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005